Climate change, population growth, and water scarcity present unprecedented challenges for agriculture. This project aims to forecast soil moisture using domain knowledge and machine learning for crop management decisions that enable sustainable farming. Traditional methods for predicting hydrological response features require significant computational time and expertise. Recent work has implemented machine learning models as a tool for forecasting hydrological response features, but these models neglect a crucial component of traditional hydrological modeling that spatially close units can have vastly different hydrological responses. In traditional hydrological modeling, units with similar hydrological properties are grouped together and share model parameters regardless of their spatial proximity. Inspired by this domain knowledge, we have constructed a novel domain-inspired temporal graph convolution neural network. Our approach involves clustering units based on time-varying hydrological properties, constructing graph topologies for each cluster, and forecasting soil moisture using graph convolutions and a gated recurrent neural network. We have trained, validated, and tested our method on field-scale time series data consisting of approximately 99,000 hydrological response units spanning 40 years in a case study in northeastern United States. Comparison with existing models illustrates the effectiveness of using domain-inspired clustering with time series graph neural networks. The framework is being deployed as part of a pro bono social impact program. The trained models are being deployed on small-holding farms in central Texas.
translated by 谷歌翻译
Simulating rigid collisions among arbitrary shapes is notoriously difficult due to complex geometry and the strong non-linearity of the interactions. While graph neural network (GNN)-based models are effective at learning to simulate complex physical dynamics, such as fluids, cloth and articulated bodies, they have been less effective and efficient on rigid-body physics, except with very simple shapes. Existing methods that model collisions through the meshes' nodes are often inaccurate because they struggle when collisions occur on faces far from nodes. Alternative approaches that represent the geometry densely with many particles are prohibitively expensive for complex shapes. Here we introduce the Face Interaction Graph Network (FIGNet) which extends beyond GNN-based methods, and computes interactions between mesh faces, rather than nodes. Compared to learned node- and particle-based methods, FIGNet is around 4x more accurate in simulating complex shape interactions, while also 8x more computationally efficient on sparse, rigid meshes. Moreover, FIGNet can learn frictional dynamics directly from real-world data, and can be more accurate than analytical solvers given modest amounts of training data. FIGNet represents a key step forward in one of the few remaining physical domains which have seen little competition from learned simulators, and offers allied fields such as robotics, graphics and mechanical design a new tool for simulation and model-based planning.
translated by 谷歌翻译
农作物残留物燃烧是世界许多地方的空气污染的主要来源,尤其是南亚。政策制定者,从业人员和研究人员都投资了衡量影响和制定干预措施以减少燃烧。但是,测量燃烧的影响或干预措施的有效性减少燃烧需要数据燃烧的位置。这些数据在成本和可行性方面都在现场收集具有挑战性。我们利用印度旁遮普邦旁遮普邦农作物残留物燃烧的地面监测的数据,以探索使用可访问的卫星图像是否可以更有效地检测到燃烧。具体而言,我们使用了具有高时间分辨率(最多每天)的3M Planetscope数据以及具有每周时间分辨率但光谱信息深度的公共可用Sentinel-2数据。在分析了不同光谱带和燃烧指数单独分离燃烧和未燃烧图的能力之后,我们构建了一个随机森林模型,这些模型确定提供了最大的分离性,并用地面验证的数据评估了模型性能。鉴于测量所带来的挑战,我们的总体模型精度为82%是有利的。基于此过程的见解,我们讨论了检测卫星图像中农作物残留物燃烧的技术挑战,以及衡量燃烧和政策干预措施的影响的挑战。
translated by 谷歌翻译
数据是现代机器学习的关键组成部分,但是评估数据标签质量的统计数据在文献中仍然很少。在这里,我们介绍了Dipietro-Hazari Kappa,这是一种新颖的统计指标,用于评估人类注释中建议的数据集标签的质量。Dipietro-Hazari Kappa植根于经典Fleiss的Kappa衡量通道互通的协议量度,量化了在随机机会上获得的经验注释协议差异。在转向我们对Dipietro-Hazari Kappa的推导之前,我们对Fleiss的Kappa进行了彻底的理论检查。最后,我们以矩阵公式和一组程序指令进行结论,以方便计算实现。
translated by 谷歌翻译
自杀是主要的公共卫生危机。每年有超过20,000,000多次自杀企图,对自杀意图的早期发现有可能挽救数十万生命。传统的心理健康筛查方法是耗时的,昂贵的,而且弱势群体通常无法获得;使用机器学习对自杀意图的在线检测提供了可行的替代方法。在这里,我们介绍了迄今为止最大的非关键字生成的自杀语料库Robin,包括超过110万个在线论坛发布。除了其前所未有的规模外,罗宾还专门构建了各种自杀文本,例如自杀丧亲和轻率的参考文献,更好地促进了对罗宾进行培训的模型,以学习表达自杀构思的文本细微差别。实验结果通过传统方法(例如逻辑回归(F1 = 0.85))以及大规模的预训练的语言模型(例如BERT)(F1 = 0.92),实现了自杀文本分类的最新性能。 。最后,我们公开发布Robin数据集作为机器学习资源,有可能推动下一代自杀情绪研究。
translated by 谷歌翻译
共识算法通过使多个机器人能够收敛到仅使用本地通信的全局变量的一致估计来构成许多分布式算法的基础。但是,标准共识协议可以轻松地由非合作团队成员误入歧途。因此,对于设计弹性分布式算法是必要的,对共识的弹性形式的研究是必要的。 W-MSR共识是一种这样的有弹性共识算法,它允许仅具有通信图的本地知识,而没有用于共享数据的先验模型。但是,给定通信图满足严格的图形连接要求的验证使W-MSR在实践中难以使用。在本文中,我们显示了机器人文献中常用的通信图结构,即基于Voronoi Tessellation构建的通信图,自动产生足够连接的图以拒绝单个非合作团队成员。此外,我们展示了如何增强该图,以拒绝两个非合作团队成员,并为修改进一步的弹性提供路线图。这项贡献将允许在已经依赖基于Voronoi的通信(例如分布式覆盖范围和探索算法)的算法中轻松应用弹性共识。
translated by 谷歌翻译
在这里,我们提出了符合性整合的符号回归(SISR),这是一种从数据中学习物理控制方程的新技术。SISR使用具有突变的多层LSTM-RNN采用深层符号回归方法,以概率地采样哈密顿符号表达式。使用符号神经网络,我们开发了一种模型无关的方法,用于从数据中提取有意义的物理先验,这些方法可以直接施加到RNN输出中,从而限制了其搜索空间。使用四阶符号整合方案对RNN产生的汉密尔顿人进行了优化和评估;预测性能用于训练LSTM-RNN,以通过寻求风险的政策梯度方法来产生越来越更好的功能。采用这些技术,我们从振荡器,摆,两体和三体重力系统中提取正确的管理方程,并具有嘈杂且非常小的数据集。
translated by 谷歌翻译
停止词几乎没有语义信息,并经常从文本数据中删除,以减少数据集大小并改善机器学习模型的性能。因此,研究人员试图开发用于生成有效止血器集的技术。先前的方法范围从依赖语言专家的定性技术到使用在语料库中计算的相关性或频率依赖性指标提取单词重要性的统计方法。我们提出了一种新颖的定量方法,该方法采用迭代和递归特征删除算法来查看哪些单词可以从预先训练的变压器的词汇中删除,最少降级到其性能,特别是用于情感分析的任务。从经验上讲,通过这种方法生成的停止列表大大降低了数据集的大小,同时却忽略了模型性能,在此类示例中,将语料库缩小了28.4%,同时将训练有素的逻辑回归模型的准确性提高了0.25%。在另一种情况下,该语料库的准确性下降了63.7%,而精度降低了2.8%。这些有希望的结果表明,我们的方法可以为特定的NLP任务生成非常有效的停止词集。
translated by 谷歌翻译
道德框架和情感会影响各种在线和离线行为,包括捐赠,亲环境行动,政治参与,甚至参与暴力抗议活动。自然语言处理中的各种计算方法(NLP)已被用来从文本数据中检测道德情绪,但是为了在此类主观任务中取得更好的性能,需要大量的手工注销训练数据。事实证明,以前对道德情绪注释的语料库已被证明是有价值的,并且在NLP和整个社会科学中都产生了新的见解,但仅限于Twitter。为了促进我们对道德修辞的作用的理解,我们介绍了道德基础Reddit语料库,收集了16,123个reddit评论,这些评论已从12个不同的子雷迪维特策划,由至少三个训练有素的注释者手工注释,用于8种道德情绪(即护理,相称性,平等,纯洁,权威,忠诚,瘦道,隐含/明确的道德)基于更新的道德基础理论(MFT)框架。我们使用一系列方法来为这种新的语料库(例如跨域分类和知识转移)提供基线道德句子分类结果。
translated by 谷歌翻译
数据已成为当今世界上最有价值的资源。随着数据驱动算法的大量扩散,例如基于深度学习的方法,数据的可用性引起了极大的兴趣。在这种情况下,特别需要高质量的培训,验证和测试数据集。体积数据是医学中非常重要的资源,因为它范围从疾病诊断到治疗监测。如果数据集足够,则可以培训模型来帮助医生完成这些任务。不幸的是,在某些情况和应用程序中,大量数据不可用。例如,在医疗领域,罕见疾病和隐私问题可能导致数据可用性受到限制。在非医学领域,获得足够数量的高质量数据的高成本也可能引起人们的关注。解决这些问题的方法可能是生成合成数据,以结合其他更传统的数据增强方法来执行数据增强。因此,关于3D生成对抗网络(GAN)的大多数出版物都在医疗领域内。生成现实合成数据的机制的存在是克服这一挑战的好资产,尤其是在医疗保健中,因为数据必须具有良好的质量并且接近现实,即现实,并且没有隐私问题。在这篇综述中,我们提供了使用GAN生成现实的3D合成数据的作品的摘要。因此,我们概述了具有共同体系结构,优势和缺点的这些领域中基于GAN的方法。我们提出了一种新颖的分类学,评估,挑战和研究机会,以提供医学和其他领域甘恩当前状态的整体概述。
translated by 谷歌翻译